본문으로 건너뛰기

FDP WAF Stress 결과 요약: R0 Window-Local 32GiB 3-Mode Batch

작성일: 2026-06-15 기준 시나리오: fdp/reports/2026-06-15_poc_harness_evaluation_scenario.md 실행 결과 위치: /home/ny/fdp_measure_waf_r0_window32g_readme8

전체 결과

PASS. no_fdp, mixed, separated 3모드 모두 R0 window-local 32GiB precondition 후 README 기준 stress, warmup=2, measurement=8 조건으로 완료됐고, 세 모드 모두 WAF가 available로 산출됐다.

항목
결과 상태PASS
모드no_fdp, mixed, separated
Run IDR_no_fdp_20260615T222219, R_mixed_20260615T223842, R_separated_20260615T225510
Device path/dev/ng0n1
Block device path/dev/nvme0n1
Worker 수모드별 9
Warmup iteration2
Measurement iteration8
총 replay process 수모드별 90
Process failure0
Replay record failure0
Operation error0
전체 wall timeno_fdp 599.24s, mixed 605.94s, separated 597.14s
Warmup wall timeno_fdp 118.13s, mixed 118.68s, separated 117.74s
Measurement wall timeno_fdp 481.10s, mixed 487.25s, separated 479.39s

Precondition

원문 PoC 기준의 clean-state WAF artifact를 피하기 위해 각 mode 직전에 window-local R0 precondition을 수행했다.

항목
Precondition 상태used
Precondition 유형window-local
R0 output/home/ny/fdp_measure_waf_r0_window32g_readme8/R0_precondition_20260615T222201, /home/ny/fdp_measure_waf_r0_window32g_readme8/R0_precondition_20260615T223825, /home/ny/fdp_measure_waf_r0_window32g_readme8/R0_precondition_20260615T225452
Namespace discardyes
Offset bytes2199023255552
Size32GiB
Sequential fillyes
Random overwriteyes
Random pass 수1
R0 중 vendor media counter 수집collected

WAF 결과

ModeHost write bytes deltaHost write deltaMedia write bytes deltaMedia write deltaWAFHost write 대비 write amplificationWAF status
no_fdp511,058,432,000475.96GiB519,170,949,120483.52GiB1.0158741.587%available
mixed500,674,560,000466.29GiB508,619,390,976473.69GiB1.0158681.587%available
separated373,750,784,000348.08GiB379,687,010,304353.61GiB1.0158831.588%available

separated는 host/media write volume이 가장 낮았다. 다만 WAF ratio 자체는 세 모드가 모두 약 1.0159로 거의 같아서, 이번 batch만으로 "separated가 WAF ratio를 낮췄다"는 결론은 약하다.

기대값과 실제 관측값

원문 PoC와 README의 기대 방향은 lifetime이 비슷한 KV cache stream을 분리하면 SSD 내부 GC의 불필요한 copy가 줄고, 그 결과 WAF와 NAND wear가 감소하며 p99 tail latency가 안정화된다는 것이다. README 기준으로는 mixed가 의도적으로 나쁜 FDP placement이고, separated가 lifetime/RUH 분리 효과를 확인하는 모드다.

기대 항목기대 방향이번 관측값판단
WAF ratioseparatedno_fdp/mixed보다 낮아지는 방향no_fdp 1.015874, mixed 1.015868, separated 1.015883미입증. 세 모드 WAF ratio가 사실상 동일
Host write pressureseparated가 baseline 대비 감소separatedno_fdp 대비 -26.9%, mixed 대비 -25.4%긍정 신호
Media write pressureseparated가 media write를 줄이는 방향separated 353.61GiB, no_fdp 483.52GiB, mixed 473.69GiB긍정 신호
Tail latencyseparated에서 p99가 안정화되는 방향write p99: separated 2.398ms, no_fdp 2.732ms, mixed 3.337ms긍정 신호
Clean-state caveatWAF 평가 전에 preconditioning 적용각 mode 전 32GiB window-local R0 수행충족

따라서 이번 batch는 원문/README의 기대 중 write pressure 감소tail latency 개선에는 맞는 신호를 보였다. 반면 핵심 지표인 WAF ratio 자체의 감소는 이번 결과에서 확인되지 않았다. 이 결과는 "separated가 WAF를 낮췄다"가 아니라, "separated가 이번 workload에서 host/media write volume과 p99를 낮췄지만 WAF ratio는 동일 수준이었다"로 해석해야 한다.

Counter 수집

CounterSource상태
Host writesnvme smart-log /dev/nvme0n1 -o jsoncollected
Media writesnvme ocp smart-add-log /dev/nvme0n1 -o jsoncollected
FDP stats외부 nvme fdp stats /dev/nvme0 --endgrp-id=1 snapshotcollected
FDP RUH logsxNVMe FDP log commandnot collected

메모:

  • measurement_after.json의 warning에는 xnvme unavailable; skipped FDP logs가 기록됐다.
  • 정식 WAF는 FDP MBMW proxy가 아니라 vendor OCP의 Physical media units written 값을 사용했다.

측정 Workload Pressure

아래 표는 separated mode의 workload mapping 기준이다. Logical store write는 measurement_iterations=8의 measurement 구간만 반영했다.

WorkloadWorker 수ClassFDP Data RUHsFDP Metadata RUHsLogical Store WritesStore recordsPrefetch records
llama8b_chat_chunk2562hot_churn0,12160GiB40,9605,120
llama70b_longctx_chunk10241large_model3,4580GiB2,5602,512
rag_shared_prefix_chunk5122cold_rag3,45192GiB12,28848,864
random_prompts_chunk1283hot_churn0,12192GiB98,3041,536
metadata_heavy_small_objects1metadata_heavy6764GiB65,5360
Total9688GiB219,64858,032

Latency

Modewrite p50 mswrite p99 msread p50 msread p99 msall p99 ms
no_fdp0.0832.732N/A0.3192.672
mixed0.0843.337N/A0.3083.234
separated0.0792.398N/A0.3032.338

separated가 이번 batch에서 write p99와 all p99 모두 가장 낮았다.

Log 관찰

Replay는 clean하게 완료됐다. 이전 probe run에서 보였던 warning category들은 이번 batch에서는 재발하지 않았다.

Warning categoryCountFiles
Cleaning up in-flight store task00
Failed batched memory allocation00
Device metadata slot_bytes mismatch00
FDP metadata payload rejected00
io_uring fixed-buffer registration disabled00
Tracebacks00
ERROR logs00
Exceptions00

평가 시나리오 기준 유효성

Criterion시나리오 요구사항관측값상태
원문 목표: lifetime 분리separated RUH mapping이 hot/cold/metadata를 분리hot/small/random data 0,1, cold/large/rag data 3,4, metadata 2/5/7PASS
원문 목표: WAF availablehost/media counter 모두 수집3모드 모두 WAF availablePASS
원문 목표: clean-state caveat 대응R0 precondition 상태 문서화각 mode 전 32GiB window-local R0 수행PASS
README scalestressstressPASS
README warmup22PASS
README measurement88PASS
Process failures00PASS
Replay record failures00PASS
Host write delta> 0모든 mode에서 > 0PASS
Media write delta> 0모든 mode에서 > 0PASS
p99 latency available최소 write p99 필요write/all p99 available, read-like record 기반 read p99 산출PASS

비교

Reference run: /home/ksy/waf-fdp-separated

MetricReference runThis run (separated)Match
Modeseparatedseparatedyes
Warmup iterations22yes
Measurement iterations88yes
Host write delta251.32GiB348.08GiBdifferent
Media write delta255.42GiB353.61GiBdifferent
WAF1.01631.0159같은 방향 / 매우 근접
WAF statusavailableavailableyes
Preconditionnot specifiedwindow-local 32GiB R0this run이 더 명확히 문서화됨

WAF ratio는 reference separated 결과와 사실상 일관된다. 다만 absolute host/media write volume은 다르다. 또한 이번 run은 reference 표에 없던 R0 preconditioning 조건을 명시했다.

결론

이번 batch는 원문 문서의 "WAF 평가 전 preconditioning 필요" 조건을 반영한 상태에서, README 형식의 stress, warmup=2, measurement=8 workload를 PoC harness가 정상 실행할 수 있음을 확인했다. 세 모드 모두 replay failure 없이 완료됐고, 세 모드 모두 정식 WAF가 산출됐다.

주요 positive signal은 separatedno_fdp 대비 host write volume을 26.9%, mixed 대비 25.4% 줄였고, write p99도 가장 낮았다는 점이다. 반면 WAF ratio 자체는 세 모드 모두 약 1.0159로 거의 동일했다. 따라서 이번 run은 separated가 write pressure와 tail latency를 줄였다는 근거는 제공하지만, WAF-ratio 자체를 강하게 개선했다고 주장하기에는 부족하다. 다음 단계는 같은 32GiB R0 조건에서 반복 실험을 하거나, R0 span을 256GiB/512GiB로 확장해 결과가 안정적인지 확인하는 것이다.